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浅 谈 大 数据 技术 在 广电 领域 的 应 用 


摘 要 : 21 世纪 是 数据 信息 大 爆炸 的 时 代 。 随 着 网 络 新 兴 媒 体 、 自 媒体 、 微 媒体 的 快速 发 展 ， 广 电 传媒 业 遇 到 了 前 所 未 有 
的 机 遇 与 挑战 。 依 托 大 数据 、 云 计算 、 移 动 互 联网 等 技术 ， 广 电 传统 媒体 纷纷 加 快 媒 体 融 合 的 步伐 。 其 中 ， 通 过 大 数据 技术 ， 
可 以 面向 互动 电视 端 和 移动 客户 端 , 通过 分 析 用 户 行为 数据 进行 个 性 化 节目 推送 ,为 融 媒体 节目 生产 提供 网 络 与 情 热点 线索 ， 
还 可 以 解决 广电 领域 面临 的 数据 处 理 和 存储 的 问题 ， 本 文 从 大 数据 概念 出 发 ， 分 析 大 数据 技术 ， 探 讨 大 数据 技术 在 广电 领域 


的 应 用 现状 。 
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在 竞争 日 益 激烈 的 全 媒体 时 代 下 ， 要 求 广电 传统 媒 
体能 在 保证 安全 的 前 提 下 , 与 互联 网 进行 多 维 融 合 发 展 ， 
提供 更 丰富 的 资源 、 更 多 样 的 生产 模式 及 更 加 快速 权威 
的 发 布 渠道 。 同 时 ， 面 对 海量 的 数据 信息 ， 对 信息 的 处 
理 和 存储 、 采 样 分 析 、 用 户 画 像 及 可 视 化 精准 推送 等 功能 ， 
广电 媒体 面临 着 迫切 需求 ， 大 数据 技术 的 出 现 很 好 地 解 
决 了 这 个 问题 ,推动 了 广电 传媒 的 发 展 和 转型 。 人 研究 大 
数据 技术 、 分 析 大 数据 技术 在 广电 领域 的 应 用 ， 对 于 广 
电 传媒 而 言 ， 有 着 重要 的 意义 。 

1. 大 数据 技术 

互联 网 催生 了 大 数据 应 用 的 规模 化 环境 ， 可 以 说 ， 
大 数据 技术 是 网 络 时 代 的 衍生 品 ， 它 是 以 计算 机 技术 和 
信息 技术 为 基础 ,实现 对 海量 数据 的 收集 、 分 析 和 处 理 ， 
充分 挖掘 数据 价值 的 一 种 技术 。 利 用 本 地 数据 库 资源 、 
互联 网 的 数据 ， 实 现 数据 源 的 提取 ， 通 常 采用 开源 的 分 
布 式 大 数据 技术 架构 ， 支 持 不 同 来 源 的 异 构 数据 的 多 种 
导入 方式 , 实现 海量 数据 的 存储 ,通过 对 数据 进行 清洗 、 
过 滤 、 压 缩 等 处 理 ， 实 现 大 数据 的 预 处 理 ， 利 用 数据 索 
引 功能 和 查询 功能 ， 可 以 实现 数据 库 内 的 信息 查询 ， 利 
用 云 计 算 实 现 对 海量 数据 的 汇总 和 分 析 。 在 广电 领域 ， 
大 数据 技术 有 着 广泛 的 创新 应 用 ， 主 要 有 新 闻 与 情 分 析 
与 智能 选 题 .用 户 收视 行为 和 效果 分 析 、 融 媒体 数据 分 析 、 
产品 精准 推送 、 可 视 化 展示 等 。 

2. 大 数据 技术 的 构成 
2.1 大 数据 平台 构建 技术 

大 数据 平台 构建 技术 包含 了 许多 技术 ， 并 非 单一 存 
在 ， 例 如 ， 分 布 式 数据 库 、 分 布 式 文件 系统 、 数 据 处 理 
技术 等 ， 这 些 技术 的 应 用 ， 共 同 构成 了 大 数据 平台 。 

首先 ， 分 布 式 数据 库 技 术 。 该 技术 主要 是 将 网 络 技 
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术 同 数据 库 技术 相 融 合 ， 主 要 形式 有 本 地 数据 库 、 网 络 
数据 库 等 ， 利 用 网 络 技 术 ， 实 现 海量 数据 的 存储 。 从 技 
术 层 面 进行 分 析 ， 通 过 分 布 式 数据 库 技 术 的 实际 应 用 ， 
可 以 看 出 该 项 技术 的 核心 在 于 CAP 定理 的 使 用 ， 该 技 
术 保 留 了 传统 数据 的 一 些 特性 ， 不 同 于 传统 数据 库 之 处 
在 于 ， 可 以 实现 对 数据 库 信息 的 快速 存 取 。 当 前 ， 分 布 
式 数据 平台 的 使 用 ， 以 Hadoop、Greenplum、Hbase 和 
MongoDB 较为 常见 。 

其 次 ， 分 布 式 文件 系统 技术 。 一 个 优秀 的 分 布 式 文 
件 系统 ， 可 以 随 着 数据 规模 的 增加 便捷 地 实现 弹性 横向 
扩展 ， 部 署 大 量 的 服务 器 支撑 分 布 式 文件 系统 技术 的 应 
用 ,这 也 就 满足 了 海量 数据 的 存储 要 求 ， 提 升 了 存储 能 
力 。 为 保证 数据 安全 可 徘 使 用 ,现今 大 多 采用 主 / 从 双 节 
点 方式 ， 当 主 名 称 节 点 工作 时 ， 从 名 称 节点 实时 备份 ， 
与 主 名 称 节 点 数据 同步 ， 利 用 元 余 存 储 的 方式 ， 可 保证 
存储 数据 的 安全 性 和 可 靠 性 。 当 前 ,分 布 式 文件 系统 的 
使 用 , 以 Lustre、 MogileFS、 Hadoop、 FreeNAS 等 较为 常见 。 

最 后 , 大 数据 处 理 技 术 。 大 数据 处 理 技术 应 用 十 分 广泛 ， 
在 不 同行 业 有 着 不 同 的 表现 形式 ， 经 过 总 结 分 析 ， 可 以 
将 大 数据 处 理 技术 归纳 为 以 下 三 种 形式 : 批 处 理 和 分 析 、 
实时 流 处 理 、 近 实时 分 析 。 

2. 2 大 数据 挖掘 技术 

大 数据 技术 的 核心 和 关键 在 于 对 数据 的 挖掘 ， 大 数 
据 挖 掘 技术 涉及 数据 挖掘 、 分 析 和 仓储 三 部 分 内 容 。 

首先 ， 大 数据 挖 据 技 术 。 大 数据 挖掘 技术 需要 借 
助 分 布 式 计 算 平 台 来 实现 ， 以 此 为 基础 ， 实 现 对 数据 库 
海量 数据 的 挖掘 ， 为 数据 分 析 工 作 提 供 数据 支持 。 大 数 
据 挖 气 技 术 是 将 网 络 技术 和 传统 的 数据 挖掘 技 术 相 结 
合 ， 利 用 计算 平台 ， 对 数据 进行 挖掘 处 理 ， 遇 到 特殊 情 
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况 ， 可 以 进行 简化 操作 ， 保 证 底层 平台 的 有 效 运行 。 
其 次 ， 大 数据 分 析 技 术 。 大 数据 分 析 技 术 是 以 大 数据 
存储 、 管 理 和 处 理 技术 为 基础 ， 有 目的 地 处 理 数 据 ， 实 
现 数据 的 分 析 ， 将 数据 转换 为 报表 。 常 见 的 数据 分 析 技 
术 有 : 日 志 分 析 技 术 、 文 件 属性 分 析 技术 、 文 本 情感 分 
析 技 术 、 自 然 语言 处 理 技术 等 。 

最 后 ， 大 数据 仓库 技术 。 大 数据 仓库 技术 是 指 将 搜 
集 到 的 海量 数据 进行 整合 和 存储 。 
3. 广电 大 数据 平台 概述 
3.1 广电 大 数据 平台 的 应 用 要 求 

广电 系统 对 于 大 数据 平台 的 使 用 有 如 下 要 求 : 

首先 ， 业 务 方 面 的 要 求 。 广 电 系 统 需要 搜集 的 数据 
信息 有 : 互联 网 、 电 视 、 新 媒体 等 用 户 的 行为 数据 、 疆 
情 数据 等 , 将 这 些 信 息 使 用 大 数据 平台 进行 搜集 并 整合 。 
大 数据 平台 在 收集 到 用 户 行 为 数据 之 后 ， 需 要 对 这 些 数 
据 进行 挖掘 和 分 析 ， 调 查 用 户 的 行为 模式 ， 了 解 用户 的 
喜好 ， 可 以 为 广电 系统 提供 新 的 运行 模式 。 根 据 收集 到 
的 用 户 数 据 ， 可 以 创建 视频 模型 ， 直 观 显示 和 分 析 收 视 
情况 。 例 如 ， 根 据 不 同 的 栏目 和 频道 信息 ， 了 解 实时 收 
看 人 数 , 实现 视频 智能 推荐 、 实 时 查询 等 功能 。 除 此 之 外 ， 
广电 大 数据 平台 还 应 该 满足 如 下 要 求 : (1 ) 提供 实际 案 
例 的 能 力 以 及 创建 具有 结构 化 数据 处 理 能 力 的 商业 大 数 
据 平 台 ， 数 据 平台 支持 B/S 模式 ， 可 以 实现 可 视 化 的 管 
理 和 开发 ; (2 ) 根据 MapReduce 分 布 式 数据 计算 框架 和 
HDFS 分 布 式 数据 存储 机 制 ， 实 现 海量 数据 的 告诉 访问 以 
及 快速 运算 ; (3 ) 建立 基于 MPP 架构 和 列 存储 的 数据 库 ， 
实现 PB 级 的 数据 分 析 ， 建 立 HHDFS 技术 扩展 与 封装 的 
平台 ， 实 现 PB 级 的 非 结构 化 数据 处 理 与 分 析 。 
其 次 ， 性 能 方面 的 要 求 。 广 电大 数据 平台 的 建设 ， 
需要 实现 数据 的 收集 、 整 理 、 分 析 、 查 询 等 方面 的 要 求 ， 
因此 ， 大 数据 平台 必须 有 灵活 、 可 控 、 可 扩容 的 机 制 ， 
同时 在 性 能 方面 还 需要 满足 如 下 要 求 : (1 ) 数据 加 载 速 
度 方面 ， 数 据 加 载 速度 不 能 小 于 1TB/h; (2 ) 数据 处 理 
速度 方面 ， 数 据 转换 的 处 理 速度 不 能 小 于 1TB/h; (3 ) 
复杂 数据 的 统计 计算 方面 ， 复 杂 指 标的 处 理 ， 统 计 和 计 
算 速 度 不 能 小 于 15s。 
3. 2 广电 大 数据 平台 的 建设 内 容 

广电 大 数据 平台 的 建设 包含 如 下 内 容 : 一 是 大 数据 
平台 的 建设 ; 二 是 个 性 化 门户 的 建设 。 其 中 ， 以 个 性 化 
门户 建设 尤为 重要 ， 差 异化 策略 是 广电 行业 竞争 的 重要 
策略 。 因 此 ， 广 电大 数据 门户 建设 ， 必 须 注重 个 性 化 和 
差异 化 。 

首先 ， 构 建 大 数据 平台 。 构 建 广电 大 数据 平台 时 ， 
需要 考虑 广电 行业 的 发 展 ， 未 来 可 能 出 现 的 业务 转型 需 
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求 ， 因 此 ， 大 数据 平台 需要 支持 结构 化 数据 ， 利 用 计算 
机 架构 ， 体 现 出 大 数据 平台 数据 全 面 、 技 术 先进 、 便 捷 
开放 的 特点 。 广 电大 数据 平台 的 建设 内 容 有 : 研究 平台 
的 搭建 、 运 维 平台 的 构建 、 安 装 操作 系统 、 平 台 部 署 、 
节点 动态 增 减 、MapReduce 作业 管理 、 平 台 监 控 、 参 数 
调 优 、 平 台 配 置 、 挖 气 工 具 、 系 统 算法 等 。 

其 次 ,广电 大 数据 个 性 化 门户 建设 。 个 性 化 门户 建 
设 基 于 大 数据 平台 的 建设 ， 利 用 大 数据 平台 拥有 的 数据 
收集 、 整 合 、 分 析 的 能 力 ， 建 立 广电 企业 个 性 化 门户 。 
个 性 化 门户 的 建设 ， 对 于 用 户 数据 的 收集 和 分 析 十 分 重 
要 ， 其 中 包括 : 用 户 的 访问 记录 、 用 户 聊 天 数据 、 论 坛 
发 帖 等 数据 信息 ， 将 这 些 数据 信息 通过 去 格式 化 的 方式 
进行 整合 、 存 储 ， 使 用 行为 、 关 系 、 语 义 、 视 觉 等 不 同 
的 算法 工具 ， 对 用 户 数 据 进行 处 理 ， 以 此 为 基础 建设 个 
性 化 门户 。 大 数据 平台 下 ， 利 用 强大 的 云 计算 能 力 ， 可 
以 将 广电 用 户 根据 不 同 标准 进行 分 类 ， 以 此 为 基础 ， 实 
现 内 容 的 精准 推荐 , 给 予 用 户 个 性 化 的 选择 。 通 常情 况 下 ， 
个 性 化 门户 建设 需要 注意 以 下 内 容 : (1) 用 户 行为 数据 
分 析 。 广电 大 数据 平台 建设 , 主要 在 于 利用 大 数据 平台 ， 
收集 用 户 数据 ， 分 析 用 户 喜 好 和 行为 ， 用 户 行为 数据 主 
要 有 浏览 业务 数据 、 回 看 业务 数据 、 点 播 业 务 数据 、 广 
告 业务 数据 、 直 播 频道 业务 数据 、 时 移 业 务 数据 等 ; (2 ) 
点 播 、 直 播 过 程 中 的 关联 推荐 。 所 谓 关 联 推荐 ， 是 指 根 
据 大 数据 收集 到 的 用 户 数据 进行 分 析 ， 分 析 用 户 的 行为 
和 喜好 ， 建 立 用 户 喜 好 模型 ， 根 据 用 户 喜 好 内 容 进 行 相 
关联 内 容 的 推荐 ， 向 用 户 推荐 感 兴趣 的 内 容 ， 提 升 用 户 
的 满意 度 ， 同 时 根据 用 户 喜 好 ， 也 可 以 提升 广告 的 投放 
精准 度 ; (3 ) 互联 网 的 用 户 分 析 。 互 联网 时 代 下 ， 互 联 
网 和 移动 媒体 十 分 普及 ， 人 们 利用 移动 网 络 、 互 联网 络 
获取 感 兴趣 的 信息 。 因 此 ， 用 户 数据 的 收集 也 离 不 开 互 
联网 用 户 数据 ， 深 入 挖掘 用 户 喜 好 ， 从 移动 网 络 、 广 电 
网 络 、 互 联网 络 三 网 相 融 合 , 收集 用 户 数据 , 为 片 源 引进 、 
广告 投放 、 内 容 制作 、 收 视 率 评估 等 工作 内 容 提供 数据 
支持 。 个 性 化 推荐 的 出 现 ， 是 大 数据 应 用 的 最 好 体现 ， 
大 数据 时 代 ， 根 据 用户 的 实时 数据 和 点 击 行为 ， 通 过 数 
据 分 析 可 以 获得 用 户 的 喜好 , 向 用 户 推送 感 兴趣 的 内 容 。 
近年 来 ， 各 大 媒体 门户 网 站 或 者 移动 媒体 等 都 借助 大 数 
据 的 信息 收集 和 分 析 能 力 , 发 觉 用 户 喜 好 , 推送 相关 节目 ， 
提升 用 户 的 满意 度 。 
4. 大 数据 技术 在 广电 领域 的 应 用 
4.1 在 广电 系统 运 维 管理 方面 的 应 用 

运 维 管理 是 大 数据 技术 在 广电 系统 的 应 用 方面 之 一 。 
由 于 广电 领域 涉及 到 许多 非 结 构 化 的 数据 ， 这 些 数据 的 
存在 容易 增加 广电 系统 运 维 的 难度 。 随 着 科技 的 不 断 发 
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展 和 进步 ,广电 行业 面临 越 来 越 多 的 数据 信息 ， 为 了 更 
好 地 对 广电 系统 进行 运行 管理 和 维护 管理 ， 需 要 广电 企 
业 转 型 ， 加 强 对 大 数据 技术 的 应 用 ， 实 现 数字 化 的 管理 
模式 。 具 体 而 言 ， 以 数字 化 模式 为 基础 ， 建 设 大 数据 平 
台 ， 进 行 节 目 制作 、 数 据 存储 等 内 容 。 广 电 系 统 由 多 个 
平台 构成 ， 包 括 批量 步 数 平台 、 批 量 安装 操作 、 运 维 平 
台 、 作 业 管理 平台 等 。 大 数据 技术 在 广电 系统 中 的 应 用 ， 
当 系 统 出 现 故障 时 ， 可 以 及 时 定位 发 生 故 障 的 位 置 ， 运 
维 管理 工作 效率 得 到 提升 。 此 外 ， 大 数据 技术 的 应 用 ， 
可 实现 广电 系统 运行 情况 的 实时 分 析 ， 可 以 及 时 了 解 系 
统 的 运行 情况 、 负 载 情况 ， 对 系统 问题 做 出 科学 预测 ， 
可 以 有 效 排除 一 些 故障 ， 做 到 早 发 现 、 早 治理 ， 为 广电 
系统 的 正常 运行 提供 可 靠 保 障 。 
4. 2 在 广电 业务 运营 管理 方面 的 应 用 

广电 行业 对 于 业务 运营 的 要 求 主要 有 : 对 电视 、 互 
联网 、 新 媒体 等 数据 信息 进行 收集 、 整 合 、 分 析 ， 借 助 
这 些 数 据 分 析 ， 对 用 户 的 喜好 和 行为 进行 预测 ， 根 据 预 
测 结果 开展 各 项 业务 。 大 数据 技术 的 应 用 ， 可 以 将 这 些 
数据 信息 在 大 数据 平台 整合 分 析 ， 完 成 用 户 偏好 的 合理 
预测 ， 建 立 视频 模型 。 例 如 ， 根 据 用 户 浏览 数据 ， 可 以 
模拟 用 户 画像 ， 对 用 户 的 年 龄 、 喜 好 、 内 容 等 进行 智能 
分 类 ,根据 不 同 分 类 给 出 智能 推荐 。 此 外 ,用 户 的 数量 、 
收视 时 长 等 信息 ， 可 以 成 为 决策 数据 ， 为 广电 业务 运营 
给 出 科学 的 指导 。 在 实际 运作 过 程 中 ， 使 用 MapReduce 
分 布 式 计 算 框 架 ， 实 现 对 用 户 数据 的 快速 访问 和 高 速 运 
算 。 使 用 MPP 架构 数据 库 ， 实 现 对 PB 级 结构 化 数据 的 
处 理 。 使 用 HDFS 技术 ， 实 现 对 PB 级 非 结构 化 数据 的 处 
理 。 可 以 看 出 ， 大 数据 技术 ， 使 广电 系统 可 以 更 加 精准 
地 分 析 用 户 的 喜好 ， 做 到 有 针对 性 地 投放 推荐 内 容 ， 满 
足 用 户 需 求 ， 提 升 用 户 满意 率 。 
4. 3 在 广电 用 户 数据 管理 方面 的 应 用 

建设 个 性 化 门户 ， 需 要 做 好 用 户 数据 的 管理 工作 ， 
加 强 对 用 户 数据 的 利用 ， 将 用 户 数据 进行 整合 、 分 析 ， 
对 用 户 的 偏好 和 行为 做 出 科学 预测 。 应 用 大 数据 技术 ， 
可 以 加 强 对 广电 用 户 数据 的 管理 。 首 先 ， 借 助 网 络 ， 可 
以 实现 同 用 户 的 沟通 交流 ， 获 得 用 户 数据 。 目 前 ， 广 电 
企业 对 于 用 户 数据 的 收集 ， 以 网 络 用 户 为 单位 ， 通 过 采 
样 模式 实现 数据 的 采集 和 分 析 ， 可 以 使 用 收集 到 的 有 限 
数据 , 反映 用 户 的 收视 情况 。 近 年 来 , 手机 、 平 板 的 普及 ， 
移动 设备 的 使 用 广泛 ， 必 然 会 带 来 一 批 移动 用 户 ， 面 对 
这 种 情况 ,广电 企业 应 该 加 强 互 联网 、 移 动 网 络 、 广 电 
网 络 三 网 的 互动 和 融合 ， 实 现 数据 信息 的 共享 ， 使 用 大 
数据 技术 对 用 户 的 共性 和 个 性 进行 挖掘 ， 引 导 广 电 企业 
进行 片 源 引 入 、 收 视 率 评 佑 、 内 容 制 作 等 工作 。 大 数据 
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技术 的 应 用 , 使 许多 收视 数据 被 合理 地 收集 和 利用 起 来 ， 
加 强 了 对 用 户 数据 的 分 析 和 利用 ， 用 户 数据 价值 得 到 发 
挥 ， 同 时 提升 广电 企业 决策 水 平 。 
4.4 在 新 闻 僵 情 分 析 与 智能 选 题 方面 的 应 用 

通过 探 针 和 疏 虫 手段 , 主动 抓 取 主 流 新 闻 网 站 .论坛 、 
博客 、 微 博 、 微 信 、 移 动 客户 端 等 网 络 媒体 的 各 种 信息 
数据 ， 通 过 对 海量 的 数据 的 大 数据 分 析 ， 提 取出 隐 含 的 
巨大 信息 ， 提 供 关键 性 的 市 场 数据 ， 从 而 可 实现 与 情 引 
导 、 鼻 情 管控 ， 支 持 新 闻 发 现 和 传播 效果 分 析 ， 实 现 对 
互联 网 媒体 的 传播 效果 分 析 控 掘 , 还 可 对 热点 新 闻 推荐 、 
热点 微 博 线索 、 相 似 事件 关联 、 热 点 变化 趋势 、 辅 助 事 
前 报道 选 题 ， 支 持 用 户 参 人 分 析 ( 阅读 /分享 /评论 等 ) ， 
用 户 关 注 度 及 倾向 性 分 析 控 掘 等 。 
结语 

在 媒体 融合 大 潮 中 ,广电 行业 面临 着 一 场 划时代 的 
创新 革命 ， 从 媒体 的 内 容 形 态 、 传 播 途径 到 发 布 接收 方 
式 都 发 生 了 颠 覆 性 的 变革 ， 广 电 媒 体 应 该 充分 利用 大 数 
据 技术 ， 研 发 建设 适应 广电 应 用 的 大 数据 技术 平台 ， 实 
现 从 开 时 代 向 DT 时代 的 融合 转型 。 癌 


[1] 宋 文 娟 . 浅 谈 大 数据 技术 及 在 广电 系统 中 的 应 用 四. 辽宁 
广播 电视 技术 ，2014 ( 4) : 13-15. 

D] 王 巨 森 .大 数据 技术 在 广电 领域 的 应 用 探索 四. 网 络 安全 
技术 与 应 用 ，2016 ( 2 ) : 9-10. 

[3] 林 健 . 大 数据 技术 在 广电 领域 的 应 用 分 析 由. 视听 ，2017 
(8) . 

团 檀 杉 .大 数据 技术 在 广电 领域 的 应 用 探索 四 . 现代 工业 经 
济 和 信息 化 ，2016，6 (23 ) : 79-80. 

[5] 刘 欣 荣 ， 陈 凯 . 大 数据 技术 在 广电 领域 的 应 用 探索 四 . 工 
程 技术 : 引文 版 ，2016 (6 ) : 00291-00292 

[6] 李 苟 .“ 大 数据 ，” 下 广电 行业 的 应 用 研究 由. 通讯 世界 ， 
2017 (13) : 291. 


(作者 单位 : 吉林 电视 台 


